Active Perception Learning System Based on Actor-Q Architecture

نویسندگان

  • Katsunari SHIBATA
  • Tetsuo NISHINO
  • Yoichi OKABE
چکیده

あらまし Q-learning と Actor-Critic アーキテクチャ の Actor を組み合わせた Actor-Q アーキテクチャと それを用いた能動認識学習システムを提案する.Actor-Q アーキテクチャは,システムの出力を,離散的な意思 である「行動」と連続値である「動作」に区別し,まず,Q値を用いて「行動」を決定し,その「行動」が「動作」 を伴う場合には,さらに,該当する Actor の出力にしたがって「動作」を行う.そして,Q値は,Q-learning で学習し,Actor は,その「行動」に対応するQ値を Criticの出力として学習を行なう. ここでは,センサの移動および各パターンであるという認識の結論を下すことを行動とし,それぞれに Q値を割 り当てる.そして,センサの移動が選択された際は,Actor の出力にしたがってセンサを移動する.認識が選択 された場合は,対応するパターンであるという認識結果を出力し,正解不正解を表す強化信号によって該当する Q値を学習する.Q値計算部および Actor はともにニューラルネットで構成し,視覚センサ信号を入力とする. これによって,従来の能動認識学習システムの問題点,(1)認識に対する評価値の極大値にセンサがトラップさ れること,(2)各時間ステップごとに認識出力を評価し,連続値の強化信号を与える必要があること,(3)認識結 果を出力するタイミングをシステム自身で判断できないの3つを解決することができる.そして,不均一なセン サセルを持つ視覚センサを用いたシミュレーションによって上記の効果を確認した. キーワード 強化学習,ニューラルネット,能動認識,Actor-Q アーキテクチャ,視点移動

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Actor-Q Based Active Perception Learning System

An active perception learning system based on reinforcement learning is proposed. A novel reinforcement architecture, called Actor-Q, is employed in which Qlearning and Actor-Critic are combined. The system decides its actions according to Q-values. One of the actions is to move its sensor, and the others are to make an answer of its recognition result, each of which corresponds to each pattern...

متن کامل

Comparison of Design Process in Student and Instructor

In this paper the designing products of B.A. Sophomore students of architecture in TehranUniversity who were divided into two kinds of learning namely technical and skill-based learning. In technical learningthe subjective steps of creativity process i.e. "insight", "preparation", "incubation", "intuition", and "verification"were discussed and it was suggested that these steps cannot be taught ...

متن کامل

Fast Learning in an Actor-Critic Architecture with Reward and Punishment

A reinforcement architecture is introduced that consists of three complementary learning systems with different generalization abilities. The ACTOR learns state-action associations, the CRITIC learns a goal-gradient, and the PUNISH system learns what actions to avoid. The architecture is compared to the standard actor-crititc and Q-learning models on a number of maze learning tasks. The novel a...

متن کامل

Operation Scheduling of MGs Based on Deep Reinforcement Learning Algorithm

: In this paper, the operation scheduling of Microgrids (MGs), including Distributed Energy Resources (DERs) and Energy Storage Systems (ESSs), is proposed using a Deep Reinforcement Learning (DRL) based approach. Due to the dynamic characteristic of the problem, it firstly is formulated as a Markov Decision Process (MDP). Next, Deep Deterministic Policy Gradient (DDPG) algorithm is presented t...

متن کامل

The Role of Class Scale in Promotion of Students’ Participation in Active Learning Process (Case Study: Male Students of a Secondary School in Shiraz)

Perception and experience gained in the contemporary school could not help human beings' active learning. Totally, participation is the main element in active learning and thus, the active participation of students in the learning process is emphasized by education and learning in secondary schools. Given the importance of active learning, in this paper, the effective components in this type of...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2001